❓Как использовать категориальные признаки в k-Means
Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».
🛠Что можно сделать
📍One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния. 📍Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2). 📍Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.
🔄Альтернатива
Вместо k-Means для категориальных или смешанных данных лучше использовать: 📍k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего). 📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.
❓Как использовать категориальные признаки в k-Means
Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».
🛠Что можно сделать
📍One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния. 📍Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2). 📍Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.
🔄Альтернатива
Вместо k-Means для категориальных или смешанных данных лучше использовать: 📍k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего). 📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.
Launched in 2013, Telegram allows users to broadcast messages to a following via “channels”, or create public and private groups that are simple for others to access. Users can also send and receive large data files, including text and zip files, directly via the app.The platform said it has more than 500m active users, and topped 1bn downloads in August, according to data from SensorTower.
Библиотека собеса по Data Science | вопросы с собеседований from it